智能论文笔记

Code as Policies: Language Model Programs for Embodied Control

Jacky Liang , Wenlong Huang , Fei Xia , Peng Xu , Karol Hausman , Brian Ichter , Pete Florence , Andy Zeng

分类：机器人

2022-09-16

已经证明，经过代码完成培训的大型语言模型（LLMS）能够合成DocStrings的简单Python程序[1]。我们发现这些代码编写的LLM可以被重新使用以编写机器人策略代码，给定自然语言命令。具体而言，策略代码可以表达处理感知输出的功能或反馈循环（例如，从对象检测器[2]，[3]）并参数化控制原始API。当作为输入提供了几个示例命令（格式为注释）后，然后是相应的策略代码（通过少量提示），LLMS可以接收新命令并自主重新编写API调用以分别生成新的策略代码。通过链接经典的逻辑结构并引用第三方库（例如，numpy，shapely）执行算术，以这种方式使用的LLM可以编写（i）（i）表现出空间几何推理的机器人策略，（ii）（ii）将其推广到新的说明和新指令和新指令和（iii）根据上下文（即行为常识）规定模棱两可的描述（例如“更快”）的精确值（例如，速度）。本文将代码作为策略介绍：语言模型生成程序的以机器人为中心的形式化（LMP），该程序可以代表反应性策略（例如阻抗控制器），以及基于Waypoint的策略（基于远见的选择，基于轨迹，基于轨迹，控制），在多个真实的机器人平台上展示。我们方法的核心是促使层次代码 - 代码（递归定义未定义的功能），该代码可以编写更复杂的代码，还可以改善最新的代码，以解决HOMANEVAL [1]基准中的39.8％的问题。代码和视频可从https://code-as-policies.github.io获得。

translated by 谷歌翻译

OneEE: A One-Stage Framework for Fast Overlapping and Nested Event Extraction

Hu Cao , Jingye Li , Fangfang Su , Fei Li , Hao Fei , Shengqiong Wu , Bobo Li , Liang Zhao , Donghong Ji

分类：自然语言处理

2022-09-06

事件提取（EE）是信息提取的重要任务，该任务旨在从非结构化文本中提取结构化事件信息。大多数先前的工作都专注于提取平坦的事件，同时忽略重叠或嵌套的事件。多个重叠和嵌套EE的模型包括几个连续的阶段来提取事件触发器和参数，这些阶段患有错误传播。因此，我们设计了一种简单而有效的标记方案和模型，以将EE作为单词关系识别，称为oneee。触发器或参数单词之间的关系在一个阶段同时识别出并行网格标记，从而产生非常快的事件提取速度。该模型配备了自适应事件融合模块，以生成事件感知表示表示和距离感知的预测指标，以整合单词关系识别的相对距离信息，从经验上证明这是有效的机制。对3个重叠和嵌套的EE基准测试的实验，即少数FC，GENIA11和GENIA13，表明Oneee实现了最新的（SOTA）结果。此外，ONEEE的推理速度比相同条件下的基线的推理速度快，并且由于它支持平行推断，因此可以进一步改善。

translated by 谷歌翻译

Learning Quantization in LDPC Decoders

Marvin Geiselhart , Ahmed Elkelesh , Jannis Clausius , Fei Liang , Wen Xu , Jing Liang , Stephan ten Brink

分类：机器学习

2022-08-10

查找最佳消息量化是低复杂性信念传播（BP）解码的关键要求。为此，我们提出了一个浮点替代模型，该模型模仿量化效果，作为均匀噪声的添加，其幅度是可训练的变量。我们验证替代模型与定点实现的行为非常匹配，并提出了手工制作的损失功能，以实现复杂性和误差率性能之间的权衡。然后，采用一种基于深度学习的方法来优化消息位。此外，我们表明参数共享既可以确保实现友好的解决方案，又比独立参数导致更快的培训收敛。我们为5G低密度均衡检查（LDPC）代码提供模拟结果，并在浮点分解的0.2 dB内报告误差率性能，平均消息量化位低于3.1位。此外，我们表明，学到的位宽也将其推广到其他代码速率和渠道。

translated by 谷歌翻译

PAN: Pulse Ansatz on NISQ Machines

Zhiding Liang , Jinglei Cheng , Hang Ren , Hanrui Wang , Fei Hua , Yongshan Ding , Fred Chong , Song Han , Yiyu Shi , Xuehai Qian

分类：机器学习

2022-08-02

变异量子算法（VQA）在NISQ时代表现出巨大的潜力。在VQA的工作流程中，Ansatz的参数迭代更新以近似所需的量子状态。我们已经看到了各种努力，以较少的大门起草更好的安萨兹。在量子计算机中，栅极Ansatz最终将转换为控制信号，例如TransMons上的微波脉冲。并且对照脉冲需要精心校准，以最大程度地减少误差（例如过度旋转和旋转）。在VQA的情况下，此过程将引入冗余，但是VQAS的变异性能自然可以通过更新幅度和频率参数来处理过度旋转和重组的问题。因此，我们提出了PAN，这是一种用于VQA的天然脉冲ANSATZ GENTARATOR框架。我们生成具有可训练参数用于振幅和频率的天然脉冲ansatz。在我们提出的锅中，我们正在调整参数脉冲，这些脉冲在NISQ计算机上得到了内在支持。考虑到本机 - 脉冲ANSATZ不符合参数迁移规则，我们需要部署非级别优化器。为了限制发送到优化器的参数数量，我们采用了一种生成本机 - 脉冲ANSATZ的渐进式方式。实验是在模拟器和量子设备上进行的，以验证我们的方法。当在NISQ机器上采用时，PAN获得的延迟平均提高了86％。 PAN在H2和HEH+上的VQE任务分别能够达到99.336％和96.482％的精度，即使NISQ机器中有很大的噪声。

translated by 谷歌翻译

MobileCodec: Neural Inter-frame Video Compression on Mobile Devices

Hoang Le , Liang Zhang , Amir Said , Guillaume Sautiere , Yang Yang , Pranav Shrestha , Fei Yin , Reza Pourreza , Auke Wiggers

分类：计算机视觉

2022-07-18

由于深层网络的计算复杂性和功率约束的移动硬件的计算复杂性，因此在移动设备上实现神经视频编解码器的潜力是一项巨大的技术挑战。我们通过利用高通公司的技术和创新来证明可行性，从而弥合了从基于神经网络的编解码器模拟在壁式工作站运行的差距，再到由Snapdragon技术供电的移动设备上的实时操作。我们显示有史以来第一个在商用手机上运行的框架间神经视频解码器，实时解码高清视频，同时保持低比特率和高视觉质量。

translated by 谷歌翻译

TRIE++: Towards End-to-End Information Extraction from Visually Rich Documents

Zhanzhan Cheng , Peng Zhang , Can Li , Qiao Liang , Yunlu Xu , Pengfei Li , Shiliang Pu , Yi Niu , Fei Wu

分类：计算机视觉

2022-07-14

最近，由于其广泛的商业价值，从视觉丰富的文档（例如门票和简历）中自动提取信息已成为一个热门而重要的研究主题。大多数现有方法将此任务分为两个小节：用于从原始文档图像中获取纯文本的文本阅读部分以及用于提取密钥内容的信息提取部分。这些方法主要集中于改进第二个方法，同时忽略了这两个部分高度相关。本文提出了一个统一的端到端信息提取框架，从视觉上富含文档中提出，文本阅读和信息提取可以通过精心设计的多模式上下文块相互加强。具体而言，文本阅读部分提供了多模式功能，例如视觉，文本和布局功能。开发了多模式上下文块，以融合生成的多模式特征，甚至是从预训练的语言模型中获得的先验知识，以提供更好的语义表示。信息提取部分负责使用融合上下文功能生成密钥内容。该框架可以以端到端的可训练方式进行培训，从而实现全球优化。更重要的是，我们将视觉丰富的文档定义为跨两个维度的四个类别，即布局和文本类型。对于每个文档类别，我们提供或推荐相应的基准，实验设置和强大的基准，以弥补该研究领域缺乏统一评估标准的问题。报告了对四种基准测试的广泛实验（从固定布局到可变布局，从完整的文本到半未结构化的文本），证明了所提出的方法的有效性。数据，源代码和模型可用。

translated by 谷歌翻译

Inner Monologue: Embodied Reasoning through Planning with Language Models

Wenlong Huang , Fei Xia , Ted Xiao , Harris Chan , Jacky Liang , Pete Florence , Andy Zeng , Jonathan Tompson , Igor Mordatch , Yevgen Chebotar

分类：机器人 | 人工智能 | 自然语言处理 | 计算机视觉 | 机器学习

2022-07-12

最近的作品表明，如何将大语言模型（LLM）的推理能力应用于自然语言处理以外的领域，例如机器人的计划和互动。这些具体的问题要求代理商了解世界上许多语义方面：可用技能的曲目，这些技能如何影响世界以及对世界的变化如何映射回该语言。在体现环境中规划的LLMS不仅需要考虑要做什么技能，还需要考虑如何以及何时进行操作 - 答案随着时间的推移而变化，以响应代理商自己的选择。在这项工作中，我们调查了在这种体现的环境中使用的LLM在多大程度上可以推论通过自然语言提供的反馈来源，而无需任何其他培训。我们建议，通过利用环境反馈，LLM能够形成内部独白，使他们能够在机器人控制方案中进行更丰富的处理和计划。我们研究了各种反馈来源，例如成功检测，场景描述和人类互动。我们发现，闭环语言反馈显着改善了三个领域的高级指导完成，包括模拟和真实的桌面顶部重新排列任务以及现实世界中厨房环境中的长途移动操作任务。

translated by 谷歌翻译

Decoupling Knowledge from Memorization: Retrieval-augmented Prompt Learning

Xiang Chen , Lei Li , Ningyu Zhang , Xiaozhuan Liang , Shumin Deng , Chuanqi Tan , Fei Huang , Luo Si , Huajun Chen

分类：自然语言处理

2022-05-29

迅速的学习方法通过诱导更好的几次表现，在他们仍然遵循基于参数的学习范式的同时，引起了自然语言处理的波动。学习中的遗忘和死记硬背的记忆问题可能会遇到不稳定的概括问题。具体而言，香草及时的学习可能难以利用死记硬背的非典型实例，在完全监督的培训或过度贴身模式的情况下使用低射击数据。为了减轻此类局限性，我们以将知识从记忆中解耦的动机发展为有助于模型在概括和记忆之间取得平衡。与香草及时学习相反，重新启动构造了培训实例中的开放式知识店，并在输入，培训和推理过程中实现检索机制，从而使该模型能够从培训语料库中检索相关环境作为能力为提示增强。广泛的实验表明，Retroppt可以在几次射击和零拍设置中获得更好的性能。此外，我们进一步说明，我们提出的撤退可以通过新数据集获得更好的概括能力。对记忆的详细分析确实显示逆转可以减少语言模型对记忆的依赖；因此，改善下游任务的概括。

translated by 谷歌翻译

BiSyn-GAT+: Bi-Syntax Aware Graph Attention Network for Aspect-based Sentiment Analysis

Shuo Liang , Wei Wei , Xian-Ling Mao , Fei Wang , Zhiyong He

分类：自然语言处理 | 人工智能

2022-04-06

基于方面的情感分析（ABSA）是一项精细的情感分析任务，旨在使特定方面的情感极性推断对齐方面和相应的情感。这是具有挑战性的，因为句子可能包含多个方面或复杂（例如，有条件，协调或逆境）的关系。最近，使用图神经网络利用依赖性语法信息是最受欢迎的趋势。尽管取得了成功，但在很大程度上依赖依赖树的方法在准确地建模方面的对准及其单词方面构成了挑战，因为依赖树可能会提供无关的关联的嘈杂信号（例如，“ conj”之间的关系“ conj”之间的关系。图2中的“伟大”和“可怕”。在本文中，为了减轻这个问题，我们提出了一个双轴法意识到的图形注意网络（BISYN-GAT+）。具体而言，bisyn-gat+完全利用句子组成树的语法信息（例如，短语分割和层次结构），以建模每个方面的情感感知环境（称为内在文章）和跨方面的情感关系（称为跨性别的情感）称为Inter-Contept）学习。四个基准数据集的实验表明，BISYN-GAT+的表现始终超过最新方法。

translated by 谷歌翻译

Where Does the Performance Improvement Come From? -- A Reproducibility Concern about Image-Text Retrieval

Jun Rao , Fei Wang , Liang Ding , Shuhan Qi , Yibing Zhan , Weifeng Liu , Dacheng Tao

分类：自然语言处理 | 计算机视觉

2022-03-08

本文旨在通过分析图像文本检索模型的可重复性来为信息检索社区提供对检索学习最新进展的一些思考。由于过去十年中多模式数据的增加，图像文本检索已稳步成为信息检索领域的主要研究方向。许多研究人员使用MS-Coco和FlickR30K等基准数据集训练和评估图像文本检索算法。过去的研究主要集中在绩效上，以多种方式提出了多种最先进的方法。根据他们的断言，这些技术提供了改进的模态相互作用，从而更精确的多模式表示。与以前的作品相反，我们着重于方法的可重复性以及对元素的检查，这些元素通过验证的图像和文本在检索图像和文本时通过预验证和未经预处理的模型提高了性能。更具体地说，我们首先研究了相关的可重复性问题，并解释了为什么我们的重点是图像文本检索任务。其次，我们系统地总结了图像文本检索模型的当前范式以及这些方法的既定贡献。第三，我们分析了预审预测和未进行检索模型的复制的各个方面。为了完成这项工作，我们进行了消融实验，并获得了一些影响检索召回的因素，而不是原始论文中所主张的改进。最后，我们提出了未来检索社区应考虑的一些思考和挑战。我们的源代码可在https://github.com/wangfei-2019/image-text-retrieval上公开获得。

translated by 谷歌翻译